ChatGPT DALL-E 3 进阶:奇异性和一致性
奇异性
如果你对奇异元素充满兴趣,或许可以试试参数 weird
,它的数值越高,生成的图像就会越诡异(奇异)。范围从 0-3000,0 是正常,3000 是最诡异。
@dr_cintas 分享了几组图片,每张组合图参数分别为:左上 0,右上 1000,左下 2000,右下 3000。
随机验证
我使用了一个简单的 prompt 来验证效果,结果发现当 weird 设置为 8000 时,有意外惊喜,而且产生的风格也极其稳定。
📌 Promptweird 8000,宽屏梵高风格,少女,星空,大海
下面几张图是我随机挑选的 weird 数值,分别是 0,1000,3000,6000,7000,9000,12000。
weird 8000
以下几张图均为 weird 8000。
一致性
DALL-E 3 生成高一致性的图像,一直都是难题。@nickfloats 曾对 Midjourney、Adobe Firefly 2 和 DALL-E 3 进行了一系列基准测试 (生成速度、准确性、质量、多样性和稳健性),使用 GPT-4 对结果进行评估 (0-5 分)。当时作者就在吐槽 DALL-E 3 无法在不改变或添加提示词的情况下生成多个唯一的图像(没有一种稳定的生成方法)。
@ai_for_success 分享了一个简单的方法,暂时解决了生成 DALL-E 3 图像过于随机,无法微调的问题。即:为生成的图片进行编号,然后根据编号进行微调
。
具体步骤
初始化角色
📌 Prompt注:下面提示词是对人物的肖像描写,
-XXXX
为一个数字编号,它十分重要,在后续步骤中会用到。Left
illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, wearing a red t-shirt -XXXX
Center
illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, wearing a green t-shirt -XXXX
Right
illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, wearing a green t-shirt, and smiling -XXXX
角色微调
📌 Prompt选取一张图作为初始角色:一位名叫 Hope 的 30 岁美国女性,她的卷发扎成发髻,穿着绿色 T 恤 -0003
illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, wearing a green t-shirt -0003
📌 Prompt如果希望她微笑:一位名叫 Hope 的 30 岁美国女性,她的卷发扎成发髻,穿着绿色 T 恤,面带微笑 -0004
illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, wearing a green t-shirt, smiling -0004
📌 Prompt如果希望她将手指放在嘴唇上并微笑:一位名叫 Hope 的 30 岁美国女性,她卷曲的波浪发扎成发髻,穿着绿色 T 恤,微笑着,将手指放在嘴唇上 -0005
illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, wearing a green t-shirt, smiling, and placing a finger on her lips -0005
📌 Prompt如果希望她将手指放在嘴唇上但不微笑:一位名叫 Hope 的 30 岁美国女性,她卷曲的波浪发扎成发髻,穿着绿色 T 恤,将手指放在嘴唇上 -0006
illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, wearing a green t-shirt, placing a finger on her lips -0006
📌 Prompt如果希望 Hope 的头发飘逸,手指放在嘴唇上保持微笑,则可以更新描述:一位名叫 Hope 的 30 岁美国女性,她卷曲的波浪发型飘逸,穿着绿色 T 恤,微笑着,手指放在嘴唇上 -0006
Illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair flowing, wearing a green t-shirt, smiling, and placing a finger on her lips -0006
📌 Prompt如果想让 Hope 读书,只使用基础提示即可(没有微笑,没有飘逸的头发,没有放在嘴唇上的手指):一位名叫 Hope 的 30 岁美国女性,她卷曲的波浪发扎成发髻,穿着绿色 T 恤,正在读书 -0007
Illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, wearing a green t-shirt, reading a book -0007
📌 Prompt注:以下两条 Prompt 需分开输入,这里为了对比,整理在一起,均以 -0006 为基础。左边是飘逸的卷发在喝咖啡,右边是发髻卷发在喝咖啡。
Illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair flowing, wearing a green t-shirt, smiling, placing a finger on her lips, and drinking coffee -0008
Illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, wearing a green t-shirt, smiling, placing a finger on her lips, and drinking coffee -0009
场景微调
上面内容我们已经可以在保持一致性的前提下,对人物的头发,表情进行微调,但它们都是小范围调整,比如衣服和场景并没有太大变化。
📌 Prompt如果想让她身穿适合的装备进行徒步旅行:一位名叫 Hope 的 30 岁美国女性,她卷曲的波浪发扎成发髻,穿着合适的服装和装备在山里徒步旅行 -0010
Illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, hiking in the mountains with appropriate attire and gear -0010
📌 Prompt尝试修改背包和皮夹克颜色:一位名叫 Hope 的 30 岁美国女性,她卷曲的波浪发扎成发髻,穿着白色夹克,背着红色背包,在山中徒步旅行 -0011
Illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, wearing a white jacket and carrying a red backpack, hiking in the mountains -0011
📌 Prompt让她在冬天里堆一个雪人:一位名叫 Hope 的 30 岁美国女性,她卷曲的波浪发扎成发髻,穿着冬装,在雪景中堆雪人 -0012
Illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, dressed in winter attire, in a snowy landscape making a snowman -0012
📌 Prompt让她在图书馆里看书:一位名叫 Hope 的 30 岁美国女性,她卷发盘成发髻,舒适地坐在图书馆里,穿着一件写有“HOPE”字样的黑色 T 恤,全神贯注地阅读着一本书 -0013
Illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, seated comfortably in a library setting, wearing a black t-shirt with the word 'HOPE' written on it, engrossed in reading a book -0013
最后分享一下我生成的图片。
总结
关于如何使用 DALL-E 3 来生成一致性字符图像,主要有以下几点:
提示结构:建议使用以下结构来构建提示:
[基础提示] + [附加细节/变化信息] -标识符+1
。基础提示:基础提示是一个描述字符的详细信息的文本,包括年龄、国籍、外貌等。此提示在图像创建过程中保持不变。
唯一标识符:在提示末尾添加一个标识符,用于跟踪变化。每次修改提示时,都要递增标识符。
附加细节/变化信息:如果需要对字符进行特定的变化或添加额外的细节,将它们附加在提示的“附加细节/变化信息”部分中。
通用描述符:使用通用术语,以允许 DALL·E 生成与场景适配的风格,为图像生成过程提供一定的灵活性(例如:“适当的着装”会让 DALL 生成适合登山活动的着装)。
基于此一致性不但可以微调,还可以对多张图片元素进行融合,为 ChatGPT DALL-E 3 创作连续剧情打下了基础。感兴趣的朋友请自行尝试,也欢迎大家评论,点赞,转发!